imports

import pandas as pd
import numpy as np
import sklearn
import pickle 
import time 
import datetime
import warnings
warnings.filterwarnings('ignore')

%run function_proposed_gcn.py

with open('fraudTrain.pkl', 'rb') as file:
    fraudTrain = pickle.load(file)

df50 = throw(fraudTrain,0.5)
df_tr, df_tst = sklearn.model_selection.train_test_split(df50)

dfn = fraudTrain[::10]
dfn = dfn.reset_index(drop=True)
df_trn, df_tstn = sklearn.model_selection.train_test_split(dfn)

df_tr.shape,df_tstn.shape

((9009, 22), (26215, 22))

df2, mask = concat(df_tr, df_tstn)
df2['index'] = df2.index
df = df2.reset_index()

df.is_fraud.mean(), df_tr.is_fraud.mean(), df_tstn.is_fraud.mean()

(0.1318703156938451, 0.49872349872349875, 0.005798207133320618)

groups = df.groupby('cc_num')

edge_index = np.array([item for sublist in (compute_time_difference(group) for _, group in groups) for item in sublist])
edge_index = edge_index.astype(np.float64)

edge_index[:,2].mean()

11335336.608228715

plt.hist(edge_index[:,2])

(array([402686., 297022., 258618., 225918., 188332., 140880., 106186.,
         71318.,  31738.,   9966.]),
 array([       0.,  3753246.,  7506492., 11259738., 15012984., 18766230.,
        22519476., 26272722., 30025968., 33779214., 37532460.]),
 <BarContainer object of 10 artists>)

theta = edge_index[:,2].mean()

edge_index[:,2] = (np.exp(-edge_index[:,2]/(theta)) != 1)*(np.exp(-edge_index[:,2]/(theta))).tolist()

gamma = 0.8

edge_index = torch.tensor([(int(row[0]), int(row[1])) for row in edge_index if row[2] > gamma], dtype=torch.long).t()

x = torch.tensor(df['amt'].values, dtype=torch.float).reshape(-1,1)
y = torch.tensor(df['is_fraud'].values,dtype=torch.int64)
data = torch_geometric.data.Data(x=x, edge_index = edge_index, y=y, train_mask = mask[0], test_mask= mask[1])

model = GCN1()
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)
yy = (data.y[data.test_mask]).numpy()
yyhat, yyhat_ = train_and_evaluate_model(data, model, optimizer)
yyhat_ = yyhat_.detach().numpy()
eval = evaluation(yy, yyhat, yyhat_)

eval

{'acc': 0.9147434674804501,
 'pre': 0.06147368421052631,
 'rec': 0.9605263157894737,
 'f1': 0.11555203798971111,
 'auc': 0.9731586621082116}

result = {
    'model': 'GCN',
    'time': None,
    'acc': eval['acc'],
    'pre': eval['pre'],
    'rec': eval['rec'],
    'f1': eval['f1'],
    'auc': eval['auc'],
    'graph_based': True,
    'method': 'Proposed',
    'throw_rate': df.is_fraud.mean(),
    'train_size': len(df_tr),
    'train_cols': 'amt',
    'train_frate': df_tr.is_fraud.mean(),
    'test_size': len(df_tstn),
    'test_frate': df_tstn.is_fraud.mean(),
    'hyper_params': None,
    'theta': theta,
    'gamma': gamma
}

#df_results = df_results.append(result, ignore_index=True)